Modèles de bandit : une histoire bayésienne et fréquentiste
نویسنده
چکیده
Un modèle de bandit à K bras est un ensemble de K lois de probabilités ν1, . . . , νK , appelées bras, avec lesquelles un agent, ignorant les caractéristiques de ces bras, interagit. A chaque instant t, ce dernier choisit un bras At et observe une récompense Xt tirée sous la loi du bras choisi : Xt ∼ νAt . L’objectif de l’agent est d’adopter une stratégie de tirages des bras maximisant l’espérance des récompenses cumulées jusqu’à un horizon T , E [∑t=1Xt]. Si on note μa l’espérance de νa, l’agent va donc chercher à jouer le plus souvent possible le meilleur bras, de moyenne μ = argmaxa μa, qu’il ne connaı̂t pas a priori. La stratégie de l’agent, appelée parfois algorithme de bandit, est séquentielle : le choix du bras At+1 est basé sur les bras choisis et les récompenses observées précédemment, A1, . . . ,At,X1, . . . ,Xt. Une bonne stratégie exploite cette information de sorte à réaliser un compromis entre exploration (essayer les bras peu joués jusque là) et exploitation (favoriser les bras qui ont obtenu des bonnes performances jusque là). Dans cet article, nous évoquerons des stratégies réalisant ce compromis de manière optimale, dans un sens qui dépendra de la modélisation probabiliste choisie, fréquentiste ou bayésienne. Si le nom des modèles de bandit fait référence à un casino où il s’agirait de découvrir la machine à sous, ou bandit manchot, qui a le bras le plus performant, ce cadre n’est en fait qu’un prête-nom et à l’origine, ces modèles ont été introduits dans le contexte des essais cliniques [23]. Pour un symptôme donné, un médecin a à sa disposition K traitements, de probabilité de succès μ1, . . . , μK , inconnues au début de l’étude clinique. Il choisit d’allouer au t-ème patient de l’étude l’un des traitements, At, et observe ensuite Xt = 1 si le patient est guéri, Xt = 0 sinon, avec
منابع مشابه
شبیهسازی انسان؛ چالشی نو فراروی اخلاق و حقوق بشر
On entend par le terme «clonage humain» deux types de pratiques: le clonage reproductif et le clonage non – reproductif. Le premier, dont la fin est la reproduction, consiste a transférer le noyau d’une cellule dans un ovocyte énuclée afin d’obtenir un embryon humain génétiquement identique au donneur. Ici, l’embryon cultive...
متن کاملTeam clime Couplage de la donnée environnementale et des modèles de simulation numérique pour une intégration logicielle
متن کامل
L'influence du mysticisme islamique sur l'éducation iranienne
Il faut savoir que le mysticisme a eu toujours de grandes influences sur tout ce qui concerne la vie et la culture iraniennes, surtout sur l’éducation qui est une étape très importante dans la formation de l’avenir de la jeunesse. C’est vrai, le mysticisme est une approche individualiste alors que l’éducation reste une affaire collective et sociale. Comment arrive-t-il, étant une pratique perso...
متن کاملفایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان
Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...
متن کاملCongenital Absence of Renal Artery: Introducing Two Patients
Les auteurs font une revue de la litterature a propos de deux cas de l'agenesie de l'artere renale, anomalie rare, dont les circonstances de decouverte varient selon les cas: infections recidiventes des voies urinaires, anomalie du Perinee, hypertension arterielle. La premiere observation concerne une fillette a.gee de 7 ans, hospitalisee pour une insuffisance cardiaque severe avec hypertens...
متن کامل